iT邦幫忙

2019 iT 邦幫忙鐵人賽

DAY 3
0
自我挑戰組

資料工程師的Machine Learning/工作學習歷程系列 第 3

[第2天]機器學習基礎概念

  • 分享至 

  • xImage
  •  

How to Lie With Statistics
我們利用計算機來彰顯數據背後的含意。
一般來說並不存在最好的算法或是可以給出最好結果的算法。

  • 基本名詞:
    • 訓練集:用於訓練機器學習算法的數據樣本集合。
    • 目標變量:(分類算法中通常是類別型;回歸算法中通常是連續型的)是機器學習算法的預測結果。
    • 特徵(屬性):為訓練樣本集的列,多個特徵聯繫在一起型成一個訓練樣本。
    • 監督學習:須知道要預測什麼(v.s非監督學習)
    • 分類:離散數據適用,例如分鳥類
    • 預測:連續型變數適用,例如預測會員會不會續約
    • 非監督學習:不需知道要預測什麼
    • 聚類:將數據及分成由類似對象組成的多個類
    • 密度估計:尋找描述數據統計值的過程

在進行機器學習前,須對資料進行清理及了解,避免垃圾進垃圾出的情況,而簡單的視覺化會是很好的方法檢查與觀察數據的分佈。需針對異常值、缺失值及缺失原因與特徵與其類別、頻率進行了解。

https://ithelp.ithome.com.tw/upload/images/20181003/20111785kO6J5oqqfP.png


上一篇
[第3天]k-近鄰算法(KNN)
下一篇
[第4天]k-近鄰算法(KNN)-2
系列文
資料工程師的Machine Learning/工作學習歷程20
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

1 則留言

0
Darwin Watterson
iT邦好手 1 級 ‧ 2018-10-03 15:47:38

標題第二天跟第三天好像打反了...

nora1171 iT邦新手 5 級 ‧ 2018-10-04 14:01:43 檢舉

因為我發現我在打的時候內容順序打反了Q

只是剛好閒逛發現,哈哈! ML主題的戰況也很激烈,加油吧

我要留言

立即登入留言